چارچوبی جدید برای تشخیصِ مرجعِ مشترک و اسمِ اشاره در متون پارسی
برای رعایت حریم خصوصی نام نگارنده درج نمی شود
تکه هایی از متن به عنوان نمونه :
چکیده :
پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصهسازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هممرجع را بررسی نماید، کمک شایانی به انجامِ موفقیتآمیز این وظایف خواهد نمود. روشهای تشخیص مرجعمشترک را میتوان به دو دستهی روشهای زبانشناسی و روشهای یادگیری ماشین تقسیم نمود. روشهای زبانشناسی بیشتر به اطلاعات زبانشناسی نیاز دارند، البته مشکل این روشها این است که پر خطا و طولانی میباشند. از طرف دیگر روشهای یادگیری ماشین کمتر به اطلاعات زبانشناسی نیاز دارند و نتایج حاصل از آنها قابل اعتمادتر است. در این پایاننامه تلاش میکنیم تا فرآیند تشخیص مرجعمشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشارهها، عبارتهای هممرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانهگذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیشبینی عبارتهای اسمی هممرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکرهای با نشانههایی شامل محدودهی اشاره، نوع اشاره، هستهی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه میکنیم، این پیکره میتواند به عنوان اولین پیکره دارای نشانههای اشاره و هممرجعی، مبنای کار بسیاری از پژوهشهای مربوط به شناسایی و کشف اشاره و تحلیل هممرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویتهای میان اشارهها، سیستمی ارائه میکنیم که اشارههای موجود در متن را شناسایی کرده و سپس نمونههای مثبت و منفی را از پیکره لوتوس استخراج میکند. در نهایت نیز با استفاده از الگوریتمهای یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونههای حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان میدهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.
کلمات کلیدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس…………………………………………………. 99
شکل4-2 :شمای کلی سیستم شناسایی اشاره……………………………………………………………………. 102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره……………………………………………….. 102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان…………………………………………….. 103
شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی………………………………. 107
شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی……………………………………………………. 111
۱-۱.مقدمه و بیان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبیعی[1]»شاخهای از علم «هوش مصنوعی[2]» است که به ماشینی کردن فرآیند زبان شناسی سنتی میپردازد. به این ترتیب با استفاده از رایانه میتوان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده کند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[